智能论文笔记

A general framework for multi-step ahead adaptive conformal heteroscedastic time series forecasting

Martim Sousa , Ana Maria Tomé , José Moreira

分类： (统计)机器学习 | 机器学习

2022-07-28

机器学习（ML）的指数增长引起了极大的兴趣，以量化用户定义的信心水平的每个预测的不确定性。可靠的不确定性定量至关重要，是迈向增加对AI结果的信任的一步。在高风险决策中，它变得尤为重要，在这种决策中，真正的输出必须在置信度范围内具有很高的可能性。共形预测（CP）是一个无分布的不确定性定量框架，可适用于任何黑框模型，并产生预测间隔（PI），这些预测间隔（PIS）在轻度的交换性假设下有效。 CP型方法由于易于实施和计算便宜而变得越来越流行；但是，交换性假设立即排除时间序列预测。尽管最近的论文解决了协变量的转变，但对于一般时间序列预测生产H-Step提前有效PI的问题还不足。为了实现这样的目标，我们提出了一种称为AENBMIMOCQR的新方法（自适应集合批量多输入多输出保形的分数回归），该方法会产生渐近有效的PIS，适合异质驱动时间序列。我们将提出的方法与NN5预测竞争数据集中的最新竞争方法进行比较。所有用于复制实验的代码和数据都可以使用

translated by 谷歌翻译

Improved conformalized quantile regression

Martim Sousa , Ana Maria Tomé , José Moreira

分类： (统计)机器学习 | 机器学习

2022-07-06

共形分位回归是一种继承保形预测和分数回归的优势的程序。也就是说，我们使用分位数回归来估计真正的条件分位数，然后在校准集中应用一个共形步骤以确保边缘覆盖率。通过这种方式，我们获得了解释异质性的自适应预测间隔。然而，如（Romano等，2019）所述，上述形式缺乏适应性。为了克服这一限制，我们建议在估计有条件的分位数后使用分位数回归后应用单个共形步骤，而是建议将解释变量通过优化的k均值加权的解释变量聚集，并应用k的共形步骤。为了证明此改进的版本优于共形分位数回归的经典版本，并且更适合异方差，我们可以广泛比较开放数据集中两者的预测间隔。

translated by 谷歌翻译

Inductive Conformal Prediction: A Straightforward Introduction with Examples in Python

Martim Sousa

分类： (统计)机器学习 | 机器学习

2022-06-23

电感保串预测（ICP）是一组无分布和模型的不可分割算法，该算法旨在以用户定义的置信度，并具有覆盖范围保证。与其具有\ textIt {点预测}，即在回归的情况下或多类分类中的单个类中的实际数字，而是使用ICP输出校准的模型分别为间隔或一组类。 ICP在高风险设置中特别重要，我们希望真正的输出属于具有高概率的预测集。例如，分类模型可能会输出给定磁共振图像患者没有潜在疾病的磁共振图像。但是，该模型输出基于最可能的类别，第二个最有可能的类可能表明患者患有15 \％的脑肿瘤或其他严重疾病的机会，因此应进行进一步的检查。因此，使用ICP更具信息性，我们认为这应该是产生预测的标准方式。本文是动手介绍，这意味着我们将在介绍该理论时提供示例。

translated by 谷歌翻译

No Pattern, No Recognition: a Survey about Reproducibility and Distortion Issues of Text Clustering and Topic Modeling

Marília Costa Rosendo Silva , Felipe Alves Siqueira , João Pedro Mantovani Tarrega , João Vitor Pataca Beinotti , Augusto Sousa Nunes , Miguel de Mattos Gardini , Vinícius Adolfo Pereira da Silva , Nádia Félix Felipe da Silva , André Carlos Ponce de Leon Ferreira de Carvalho

分类：机器学习 | 自然语言处理 | (统计)机器学习

2022-08-02

使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序，可以从无监督的学习（例如文本聚类和主题建模）中受益，包括探索性数据分析。但是，无监督的学习范式提出了可重复性问题。初始化可能会导致可变性，具体取决于机器学习算法。此外，关于群集几何形状，扭曲可能会产生误导。在原因中，异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关，但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述（2011-2022），并提出了共同的术语，因为类似的程序具有不同的术语。作者描述了研究机会，趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化，分解和聚类算法的理论背景。

translated by 谷歌翻译

Deep Learning for Short-term Instant Energy Consumption Forecasting in the Manufacturing Sector

Nuno Oliveira , Norberto Sousa , Isabel Praça

分类：人工智能 | 机器学习

2022-07-04

电力是一种波动的电源，需要短期和长期的精力计划和资源管理。更具体地说，在短期，准确的即时能源消耗中，预测极大地提高了建筑物的效率，为采用可再生能源提供了新的途径。在这方面，数据驱动的方法，即基于机器学习的方法，开始优先于更传统的方法，因为它们不仅提供了更简化的部署方式，而且还提供了最新的结果。从这个意义上讲，这项工作应用和比较了几种深度学习算法，LSTM，CNN，CNN-LSTM和TCN的性能，在制造业内的一个真实测试中。实验结果表明，TCN是预测短期即时能源消耗的最可靠方法。

translated by 谷歌翻译

Non-Intrusive Reduced Models based on Operator Inference for Chaotic Systems

João Lucas de Sousa Almeida , Arthur Cancellieri Pires , Klaus Feine Vaz Cid , Alberto Costa Nogueira Junior

分类：机器学习

2022-06-01

这项工作探讨了物理驱动的机器学习技术运算符推理（IMIPF），以预测混乱的动力系统状态。 OPINF提供了一种非侵入性方法来推断缩小空间中多项式操作员的近似值，而无需访问离散模型中出现的完整订单操作员。物理系统的数据集是使用常规数值求解器生成的，然后通过主成分分析（PCA）投影到低维空间。在潜在空间中，设置了一个最小二乘问题以适合二次多项式操作员，该操作员随后在时间整合方案中使用，以便在同一空间中产生外推。解决后，将对逆PCA操作进行重建原始空间中的外推。通过标准化的根平方误差（NRMSE）度量评估了OPINF预测的质量，从中计算有效的预测时间（VPT）。考虑混乱系统Lorenz 96和Kuramoto-Sivashinsky方程的数值实验显示，具有VPT范围的OPINF降低订单模型的有希望的预测能力，这些模型均超过了最先进的机器学习方法，例如返回和储层计算循环新的Neural网络[1 ]，以及马尔可夫神经操作员[2]。

translated by 谷歌翻译

A Flexible HLS Hoeffding Tree Implementation for Runtime Learning on FPGA

Luís Miguel Sousa , Nuno Paulino , João Canas Ferreira , João Bispo

分类：机器学习

2021-12-03

当为其简单和可扩展性实现嵌入式系统中的机器学习时，通常优选决策树。 Hoeffding树是一种决策树，其利用霍夫特队允许他们学习数据中的模式而无需连续地存储数据样本以供将来进行再处理。这使它们特别适合在嵌入式设备上进行部署。在这项工作中，我们突出了HOEFFD树的HLS实现的特征。实现参数包括样本（d）的特征大小，输出类（k）的数量，以及允许树被允许生长的最大节点数量（nd）。我们针对Xilinx MPSoC ZCU102，评估：设计的资源需求和时钟频率，不同数量的类和特征大小，执行时间在不同样本大小（n）的若干合成数据集，输出类数量和执行时间和执行时间从UCI的两个数据集的准确性。对于D3，K5和N40000的问题大小，在103MHz上运行的单个决策树能够比1.2GHz ARM Cortex-A53核心更快推理8.3倍。与Hoeffding树的参考实现相比，我们为UCI数据集实现了可比的分类准确性。

translated by 谷歌翻译

Joint Characterization of the Cryospheric Spectral Feature Space

Christopher Small , Daniel Sousa

分类： (统计)机器学习

2021-12-02

高光谱特征空间对于许多从光谱混合建模到离散主题分类的许多遥感应用是有用的。在这种情况下，特征空间维度，几何和拓扑的表征可以为有效的模型设计提供指导。本研究的目的是通过维度减少进行比较和对比两种方法来识别特征空间基载体。可以组合这些方法以使联合表征揭示光谱性能，不用单独使用任何方法。我们使用雪FIRN-ICE连续核的多元化Aviris-NG反射光谱，以说明关节表征的效用，并识别从光谱推断的物理性质。光谱特征空间组合主组件（PC）和T分布式随机邻居嵌入（T-SNES）提供了代表光散反光特性的全局（PC）结构的物理解释尺寸和局部（T-SNE）歧管结构，显示不解决的聚类全球连续体。联合表征在格陵兰冰盖的不同部分和不同地点冰川和海冰中共同的多个冰反射特性的雪地渐变的不同连续体。在T-SNE特征空间中透露的聚类，并扩展到联合表征，区分雪积区内特定于位置的光谱曲率的差异，以及与观看几何形状相关的BRDF效果。 PC + T-SNE联合表征产生物理可解释的光谱特征空间的能力揭示了全局拓扑，同时保留了局部歧管结构，表明该表征可能扩展到所有陆地覆盖的高大维度特征空间。

translated by 谷歌翻译

A Comparative Analysis of Machine Learning Techniques for IoT Intrusion Detection

João Vitorino , Rui Andrade , Isabel Praça , Orlando Sousa , Eva Maia

分类：人工智能

2021-11-25

数字转型面临着巨大的安全挑战。特别是，越来越多的网络攻击目标互联网（物联网）系统的需要重述可靠地检测恶意网络活动的需求。本文介绍了关于IOT-23数据集的九个恶意软件捕获的监督，无监督和强化学习技术的比较分析，考虑到二进制和多级分类方案。开发的模型包括支持向量机（SVM），极端梯度升压（XGBoost），光梯度升压机（LightGBM），隔离林（IFOREST），本地异常因子（LOF）和基于的深增强学习（DRL）模型双层Q-Network（DDQN），适用于入侵检测上下文。通过LightGBM实现了最佳性能，紧随其后的SVM。尽管如此，IFOREST针对未知攻击显示出良好的结果，DRL模型展示了采用该方法不断改善检测的可能益处。总的来说，所获得的结果表明，分析的技术非常适合于物联网入侵检测。

translated by 谷歌翻译

A Hybrid Approach for an Interpretable and Explainable Intrusion Detection System

Tiago Dias , Nuno Oliveira , Norberto Sousa , Isabel Praça , Orlando Sousa

分类：人工智能

2021-11-19

网络安全已经关注了很长一段时间。在最近几年，网络理念的规模和复杂程度越来越大，通过技术的重大进步推动。如今，保护系统和数据对于业务连续性至关重要的不可避免的必要性。因此，已经创建了许多入侵检测系统，以试图减轻这些威胁并有助于及时检测。这项工作提出了一种可解释和解释的混合性入侵检测系统，它利用人工智能方法来实现更好，更持久的安全性。该系统将专家的书面规则和动态知识与决策树算法连续生成，因为从网络活动中出现了新的证据。

translated by 谷歌翻译